import pandas as pd
import matplotlib.pyplot as plt

# 设置图片清晰度
plt.rcParams['figure.dpi'] = 300
# 设置中文字体
plt.rcParams['font.sans-serif'] = ['WenQuanYi Zen Hei']

# 加载数据集，路径用正斜杠
df1 = pd.read_csv('B:/spark ks/pythonProject/Dataset/books.csv', on_bad_lines='skip')
df2 = pd.read_csv('B:/spark ks/pythonProject/Dataset/books_cleaned.csv')

print('books.csv 基本信息：')
df1.info()

# 查看 books.csv 行数和列数
rows, columns = df1.shape

if rows < 100 and columns < 20:
    # 短表数据（行数少于100且列数少于20）查看全量数据信息
    print('books.csv 全部内容信息：')
    print(df1.to_csv(sep='\t', na_rep='nan'))
else:
    # 长表数据查看数据前几行信息
    print('books.csv 前几行内容信息：')
    print(df1.head().to_csv(sep='\t', na_rep='nan'))

print('books_cleaned.csv 基本信息：')
df2.info()

# 查看 books_cleaned.csv 行数和列数
rows, columns = df2.shape

if rows < 100 and columns < 20:
    # 短表数据（行数少于100且列数少于20）查看全量数据信息
    print('books_cleaned.csv 全部内容信息：')
    print(df2.to_csv(sep='\t', na_rep='nan'))
else:
    # 长表数据查看数据前几行信息
    print('books_cleaned.csv 前几行内容信息：')
    print(df2.head().to_csv(sep='\t', na_rep='nan'))